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基于 句法 分 析 及 主题 分 布 的 关键 词 抽取 模型 


王 昊 , 刘 丹 i， 刘 硕 
(电子 科技 大 学 电子 科学 技术 研究 院 , 成 都 611731) 


摘 要 : 针对 TextRank 算法 在 抽取 篇 章 关 键 词 时 忽略 句法 信息 、 主 题 信息 等 问题 ,提出 基于 句法 分 析 与 主题 分 布 的 
篇 章 关 键 词 抽取 模型 。 模 型 分 为 段落 和 篇 章 两 阶段 递 进 抽取 篇 章 关键 词 。 首 先 以 段落 为 单位 ， 结 合 词 共 现 、 语 法 及 
语义 信息 抽取 段落 关键 词 ; 然后 根据 段落 主题 对 段落 聚 类 ， 形 成 段落 主题 集 ; 最 后 根据 段落 主题 分 布 特征 抽取 篇 章 
关键 词 。 在 公开 的 新 闻 数 据 集 上 ， 模 型 的 抽取 效果 较 原 始 TextRank 提升 了 约 10%。 实 验 结果 表明 ， 方 法 的 抽取 效果 
有 了 明显 提升 ， 证 明了 语法 信息 及 主题 信息 的 重要 性 
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Keyword extraction model based on syntactic analysis and topic distribution 


Wang Hao, Liu Dani, Liu Shuo 
(Research Institute of Electronic Science & Technology, University of Electronic Science & Technology of China, Chengdu 
611731, China) 


Abstract: Aiming at the problem that TextRank ignores syntactic information and topic information when extracting chapter 
keywords, propose a chapter keyword extraction model based on syntactic analysis and topic distribution. Model includes two 
stages of chapter keyword extraction: paragraph and chapter. Firstly, use paragraphs as a unit to extract paragraph keywords 
by combining word co-occurrence, grammatical and semantic information. Then cluster the paragraphs according to the 
paragraph topics to form the paragraph topic set. Finally, extract chapter keywords based on the distribution characteristics of 
paragraph topics. On the open news dataset, the model's extraction effect improves by about 10% compared with the original 
TextRank. Results show that the method has significantly improved the extraction effect, and prove the importance of 
grammatical information and topic information. 
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0 ”引言 对 长 文本 效果 不 佳 的 问题 ; 
ee c) 根 据 段 落 主题 对 段落 聚 类 形成 主题 关键 词 集 ， 基 于 主 
关键 词 是 篇 章 内 容 的 高 度 概括 、 主 题 的 简明 表达 。 关 键 。 ” 题 重要 性 等 因素 筛选 篇 章 关 键 词 , 解决 TextRank 没有 考虑 文 
词 抽取 技术 在 工业 中 有 着 广泛 运用 ， 其 中 无 监督 方法 任 音 其 本 主题 的 问题 。 
泛 用 性 备 受 青睐 。TextRank 是 最 具 代 表 性 的 基于 图 的 无 监督 实验 证 明 ， 模 型 的 准确 率 P、 召 回 率 R 及 五 值 相 比 原始 
由 取 算 法 ， 其 以 词 为 节点 构建 词 图 ， 通 过 计算 节点 权重 抽取 TextRank 及 文中 所 述 其 他 组 合 均 有 显著 提升 。 
关键 词 。 但 其 忽略 了 词 的 语义 语法 信息 及 文本 的 主题 信息 ， 
对 长 文本 、 多 主题 文本 抽取 效果 不 佳 。 1 相关 工作 
本 文 提出 基于 句法 分 析 与 篇 章 主题 的 关键 词 抽取 模型 关键 词 抽取 是 文本 处 理 的 重要 基础 任务 之 一 ， 自 Luhnil 
S-TAKE(Syntactic analysis and Paragraph Topic based Article 提出 基于 词 频 的 关键 词 抽取 ， 学 者 们 提出 了 许多 抽取 方案 ， 
Keyword Extraction Model)。 模 型 以 段落 为 抽取 关键 词 的 基本  ” 根据 使 用 的 语 料 可 将 其 分 为 有 监督 抽取 和 无 监督 抽取 。 
文本 单元 ， 由 段落 至 篇 章 分 两 阶段 抽取 篇 章 关 键 词 。 抽 取 段 监督 方法 采用 分 类 或 序列 标注 的 方式 抽取 关键 词 。 常 
落 关 键 词 时 ， 利 用 句法 分 析 在 词 图 中 引入 语法 信息 ， 解 决 ”用 分 类 器 包括 朴素 贝 叶 斯 、 支 持 向 量 机 、 条 件 随机 场 、 多 层 感 知 机 
TextRank 过 度 偏向 高 频 词 的 问题 ; 利用 词 嵌 入 在 转移 矩阵 等 ; 使 用 序列 标注 时 多 利用 神经 网 络 完成 。 方 法 效果 较 好 , 但 需 标 
引入 语义 信息 , 解决 TextRank 忽略 词语 义 关联 的 问题 以 段 ” 注 语 料 支 持 ， 效 果 与 训练 语 料 相 关 ， 应 用 有 较 多 条 件 限制 。 
落 作 为 抽取 关键 词 的 基本 单位 , 解决 TextRank 对 长 文本 处 理 无 监督 方法 通过 量化 表示 词 的 重要 度 抽取 关键 词 ， 无 须 
困难 的 问题 。 筛 选 篇 章 关 键 词 时 引入 段落 主题 形成 主题 关键 ”标注 语 料 并 具有 较 高 普 适 性 ， 分 为 基于 统计 的 方法 、 
赴 
行 
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ys 


日 
图 的 方法 。 基 于 统计 的 方法 以 统计 信息 


bn 


词 集 ， 根 据 主题 重要 性 等 因素 筛选 篇 章 关 键 词 ， 解 决 题 模型 的 方法 和 基 


TextRank 忽略 文本 主题 的 问题 。 模 型 主要 创新 点 如 下 : 衡量 词 重要 性 ， 对 行文 敏感 且 忽略 了 词 的 语义 关联 ， 基 于 主 
a) 在 词 图 构建 过 程 中 ， 通 过 句法 分 析 引 入 语法 信息 ， 通 。 题 模 型 的 方法 以 主题 划分 词类 并 以 词类 的 中 心 词 作为 关键 词 ， 

过 词 嵌 入 引入 语义 信息 ,改善 TextRank 特征 单一 、 结 果 过 于 虽然 考虑 了 主题 因素 但 主题 分 布 和 词类 受 语 料 影响 大 ， 词 类 

偏向 高 频 词 、 没 有 考虑 词语 法 语义 的 问题 ; 中 心 词 与 文本 关键 词 存在 一 定 偏差 ;基于 图 的 方法 将 词 视 为 
bp) 以 段落 作为 抽取 关键 词 的 基本 单元 ， 减 小 了 词 图 计算 节点 ， 以 边 表示 词 间 关 联 ， 通 过 计算 节点 权重 抽取 关键 词 ， 


的 复杂 度 ， 增 强 了 词 图 内 部 主题 相关 度 ， 改 善 原始 TextRank 其 代表 为 TextRank 算法 中。 但 TextRank 算法 仅 利 用 了 词 的 
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共 现 信息 ， 节 点 权 值 受 词 频 影响 过 大 ， 为 此 研究 者 们 提出 了 “影响 力 或 主题 下 词语 的 相似 度 对 转移 矩阵 加 权 0415。 融 合 词 
众多 改进 模型 。 表示 模型 时 ， 主 要 利用 词 表示 中 的 语义 信息 优化 转移 矩阵 。 

最 常见 的 改进 是 在 TextRank 中 引入 统计 特征 。 孙 福 权 钻 。 如 余 本 功 09 等 基于 Word2Vec 以 向 量 相似 度 衡 量词 的 语义 距 
等 利用 万 有 引力 模型 综合 考虑 词 的 影响 力 、 距 离 和 共 现 ， 构 。” 离 ， 并 综合 部 分 统计 信息 对 转移 矩阵 加 权 ; 夏天 [7 则 利用 词 
建 了 新 的 转移 概率 实现 ; 夏天 等 中 定义 了 词 覆 盖 、 词 位 置 、 词 ”向 量 对 词 进行 聚 类 以 改进 节点 间 转 移 概率 的 计算 ; Wang 等 09 针 
聚 类 三 种 影响 力 对 转移 矩阵 加 权 ;， 备 彩 起 等 加 根据 词 在 文本 局 部 信息 对 全 局 代表 性 弱 的 问题 ， 引 入 Doc2Vec 模型 以 文 
中 首次 出 现 和 最 后 出 现 的 距离 定义 了 词 跨度 ， 并 结合 词 位 置 向 量 指引 关键 词 抽取 。 但 上 述 改 进 忽略 了 词 的 语法 信息 ， 
对 转移 矩阵 加 权 ; 艾 金 勇 外 则 综合 考虑 词 的 位 置 、 词 性 以 及 用 主题 模型 时 也 未 考虑 文本 主题 分 布 对 关键 词 的 影响 。 
词 分 布 修改 转移 矩阵 的 权重 ，Biswas 等 四 从 图 的 结构 出 发 
得 出 节点 权重 主要 取决 于 频率 、 中 心性 、 邻 居 节 点 位 置 等 参 “ 2 ”S-TAKE 模型 
数 ， 牛 永 杰 等 四 从 词 出 发 ， 得 出 节点 权重 的 主要 影响 因素 包 本 文 提出 一 种 基于 句法 分 析 与 篇 章 主题 的 篇 章 关键 词 抽 
括 词 覆 盖 度 、 词 长 、 词 频 、 词 跨度 及 词 位 置 ; 李志强 等 趾 以 词 。 取 模 型 S$-TAKE。 模 型 以 段落 作为 抽取 关键 词 的 基本 文本 单 
TF-IDF 值 和 信息 糯 的 均值 为 转移 概率 构建 转移 矩阵 ; Mao 等 "0 元， 由 段落 至 篇 章 分 两 阶段 抽取 篇 章 关键 词 ， 包 括 “段落 关 
则 使 用 归 一 化 谷歌 距离 计算 词 对 权重 ， 并 引入 WordNet 补充 。 键 词 抽取 ”及 “篇 音 关键 词 筛选 ”两 部 分 。 


词 信息 。 但 统计 特征 受 文本 影响 大 ， 且 上 述 改 进 均 忽 略 了 词 对 于 篇 章 Dp， 获取 其 段落 集合 {8,B…,B} ; 首先 根据 “ 段 
的 语义 、 语 法 信息 ， 未 考虑 主题 对 关键 词 的 影响 。 落 关 键 词 抽取 算法 ”构建 段落 词 图 6; =(Vs,E) 与 转移 矩阵 C2， 
为 此 部 分 改进 通过 组 合 TextRank 与 其 他 模型 提升 效果 ， ”计算 各 节点 权重 并 根据 权重 大 小 获取 段落 关键 词 集 XW。;， 然 


组 合 的 模型 主要 为 主题 模型 和 词 表 示 模 型 .融合 主题 模型 时 ， 后 利用 段落 文本 生成 段落 主题 向 量 7; ,根据 “篇 章 关键 词 筛 
部 分 研究 基于 主题 对 候选 关键 词 聚 类 ， 基 于 词 聚 类 和 文本 信 选 算法 ”对 段落 按 主 题 进 行 聚 类 ， 综 合 段 落 关键 词 形成 主题 
息 构 建 词 图 进行 计算 ， 其 代表 为 TopicRankIl1、Topical ”关键 词 集 XW; ,依据 主题 重要 度 1; 、 词 频 等 因素 对 关键 词 进 
PageRank09 与 Multipartiterank03;， 另 一 部 分 研究 则 根据 主题 。 行 第 选 得 出 篇 章 关键 词 集合 KW 。 模 型 原理 如 图 1 所 示 。 


a 人 
文本 分 段 处 理 >》 ) 
jn 
| 主题 1: {段落 A， 段 落 B，…} 1 
| ”主题 2，{ 段 沙 D， 段 落 E，…} 1 
共 现 关系 | | 
1 主题 k，{ 段 落 …， 段 落 …} | 


段落 关键 词 


篇 章 关 键 词 KWp 


mm 


图 1 S-TAKE 模型 原理 
Fig.1 Principle of S-TAKE model 


2.1 段落 关键 词 抽取 算法 构成 ， 点 集 V 对 应 各 候选 关键 词 ， 边 集 5 对 应 存在 关联 的 候 
篇 章 通 常 包含 多 个 主题 ， 传 统 关键 词 抽取 方法 利用 整 篇 。” 选 关键 词 对 。 

文档 构建 词 图 ， 忽 略 了 多 主题 特征 导致 词 图 内 主题 不 统一 ， 1) 点 集 Y 的 获取 

对 篇 章 抽 取 效 果 不 佳 。 段 落 作为 组 成 篇 章 的 基本 单位 ， 具 有 词 图 的 点 对 应 文本 中 的 词 。 由 于 关键 词 的 性 质 和 中 文 的 

段 内 主题 高 度 一 致 的 特性 ， 且 篇 章 关 键 词 包含 于 各 段 的 关键 ”行文 习惯 ， 构 建 点 集 Y 时 需要 对 分 词 结果 进行 过 滤 。 对 于 明 

词 中 ， 因 此 提出 以 段落 作为 获取 关键 词 的 基本 文本 单元 。 确 的 非 关 键 词 的 过 滤 可 以 缩小 词 图 规模 ， 提 升 词 图 构建 的 质 
模型 以 TextRank 为 基础 抽取 段落 关键 词 。 首先 构建 段落 。 量 ， 优 化 后 续 的 抽取 效果 。 

词 图 G=(V,E)， 点 集 V 通过 对 段落 文本 的 分 词 结果 进行 筛选 关键 词 体现 篇 章 主题 ， 其 一 定 是 具有 实际 意义 的 实 词 ， 


获取 ， 边 集 E 通过 句法 分 析 获 取 词 的 语法 信息 ， 综 合 词 的 语 忆 此 过 滤 操 作 主 要 根据 词性 和 停 用 词 表 进 行 。 模 型 以 名 词 、 
法 与 共 现 信息 获取 ;然后 利用 词 嵌 入 模型 获取 词 的 语义 信息 ， ”动词 、 数 词 、 形 容 词 、 副 词 等 词性 作为 候选 关键 词 的 可 能 词 
根据 语义 相似 度 对 边 赋 以 不 同 权重 ， 形 成 转移 矩阵 C; 最 后 。” 性， 过 滤 掉 其 他 词性 的 词 及 停 用 词 表 中 的 词 形成 候选 关键 词 
利用 PageRank 的 计算 公式 ， 结 合 词 图 结构 与 转移 矩阵 计算 。 集 ， 即 词 图 的 点 集 V 。 


各 节点 的 权重 PR,, 根据 节点 权重 的 大 小 获取 关键 词 , 实现 段 2) 边 集 5 的 获取 

落 关 键 词 抽 取 。 词 图 的 边 e=0wv) 代表 其 端点 wj 对 应 的 词 ww 存在 关 

2.1.1 基于 句法 分 析 的 词 图 构建 联 。TextRank 以 词 的 上 下 文 特征 ( 即 词 共 现 ) 作 为 衡量 词 是 否 
词 图 G=(V,E) 由 点 集 Y=to 与 边 集 丰 ={aeen} 存在 关联 的 标准 ， 特 征 维度 单一 且 受 行文 影响 较 大 。 除 上 下 
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文 特征 外 ， 词 语 的 特征 还 包括 与 行文 无 关 的 语法 信息 。 词 的 
语法 信息 通过 词 间 的 依存 关系 体现 ， 一 般 通 过 句法 分 析 获 取 
并 以 三 元 组 4={w,wj,ii),w,wje5,heR 表 示 。 

ws 为 存在 依存 关系 的 词 ,关系 由 vw 指向 wj; 为 弧 值 ， 
表示 依存 关系 的 类 型 ， 8 为 分 析 的 语句 R 为 依存 关系 类 型 
的 集合 。 当 词 间 存 在 依存 关系 且 词 均 属于 候选 关键 词 集 时 ， 
则 视 为 对 应 顶点 间 有 边 相 连 ， 若 边 集 E 中 不 存在 该 边 ， 则 将 
这 条 边 添加 至 边 集 ， 即 : 


if (w,, 


wi)e Ds and (wv, EV) and ((v sv ) 可 
then add (Vs, sv, ) >E 


通过 句法 分 析 获 取 的 边 体现 了 词 的 语法 关联 ， 对 于 行文 
变化 有 较 强 鲁 棒 性 。 且 语法 关联 不 受 词 距离 影响 ， 能 体现 远 
距离 的 词语 关系 。 但 一 句 话 仅 包含 ( 词 个 数 -1) 条 依存 关系 , 在 
进行 词 过 滤 的 前 提 下 ， 通 过 句法 分 析 获 取 的 边 的 数量 进一步 
减少 ， 仅 使 用 句法 分 析 构 建 词 图 会 导致 边 过 于 稀 朴 ， 同 时 名 
的 核心 一 般 为 动词 ， 仅 使 用 句法 分 析 得 到 的 边 会 过 分 突出 
词 重要 性 。 


因此 构建 词 图 时 ， 模 型 同时 考虑 词 的 语法 与 共 现 两 个 维 
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以 矩阵 C 表示 转移 矩阵 , 元 素 % 表示 节点 vw 到 节点 vw 的 


转移 概率 。 首 先 根 据 词 图 G 构建 初始 转移 入 


Coo i Com 


Gil 


[Cno Cm 


E 阵 Co : 


GO) 


G, 的 横 、 纵 轴 对 应 词 图 G 的 节点 ， 根 据 边 集 瑟 初始化， 节 


点 间 存 在 边 时 有 “=1， 和 否则 有 =0 


o 


方法 以 段落 为 基本 单位 构建 词 图 ， 段 落 


内 聚 性 ， 一 个 段落 只 对 应 一 个 主题 ， 


有 较 强 的 主题 


同 主题 的 关键 词语 义 较 


为 接近 。 因 此 衡量 转移 概率 时 ， 词 的 语义 越 相 似 对 应 转移 概 


使 用 向 量 表示 词 时 ， 常 利用 向 量 的 余弦 距离 衡量 词 


率 越 高 。 
语义 的 远近 ， 公 式 如 下 : 
i 
Sy = 
[sls,l 


为 词 向 量 ， 


G3) 


5 为 对 应 的 余弦 距离 ， 取 值 为 [-1,1]。5; 越 


大 则 向 量 越 相似 ， 词 的 语义 越 接近 ， 反 之 则 语义 含义 越 远 。 


考虑 词语 义 信息 的 同时 ， 还 要 考虑 边 出 现 次 数 包 含 的 信息 。 


边 出 现 的 次 数 代 表 着 边 相关 的 词 关 联 的 次 数 , 关联 次 数 越 多 ， 


对 应 词 在 当前 篇 章 的 语 境 下 相关 度 越 高 。 根 据 不 同 词 对 的 余 


度 的 信息 ， 对 通过 两 者 获取 的 边 集 进 行 取 并 操作 ， 提 出 一 种 
融合 词 的 语法 信息 和 共 现 信息 的 词 图 构建 算法 , 算法 实现 如 下 : 
算法 1 基于 句法 分 析 的 词 图 构建 算法 
输入 : 段落 文本 P; 


输出 : 段落 P 对 应 的 段落 词 图 Gp; 

a) 初始 化 词 图 Gp，Gp=<V,E>,，V=@，E=0; 
b) 初始 化 变量 len( 滑 动 窗口 SW)=w; 

Cc) 对 P 分 句 得 名 列表 {51, 52,*…, Sn}; 

d) FOR i=1 to n: 
e) 对 Si 分 词 得 词 列表 {Wii, Wiz,… ,Win}; 
f) ”初始 化 去 除 过 滤 词 的 语句 Sv=@; 

8) FOR wij} in Si: 


h) IF wijEe 过滤 词 典 : 
i) 添加 wij 一 Sv; 
j) IF wij 不 属于 点 集 V then 添加 vwj 一 Vj 


k) ”获取 句子 的 依存 关系 集合 D={dii, di2,*… ,di(n-1)}; 
1) FOR dij in D: 

m) IF Vw,VwqE 点 集 V and e=<Vwp,Vwq> 不 属于 边 集 E: 
n) 添加 Vwp,Vwq 一 E; 

0) FOR j=1 to len(Sv): 

p) FOR k=1 to w: 


q) IF vwjs Vw(j+k) 不 属于 边 集 E then 添加 <vwj,vw(jro> 一 Ej 
此 时 生成 的 词 图 同时 考虑 了 词 的 语法 关系 和 前 后 词 序 上 
的 共 现 关系 , 解决 了 TextRank 没有 考虑 语法 信息 、 忽 略 长 距 
离 词语 关联 的 问题 ， 避 免 了 单纯 使 用 依存 句法 构建 词 图 导致 
词 图 稀疏 与 偏重 动词 的 问题 。 
2.1.2 基于 语义 加 权 的 转移 矩阵 构建 
转移 矩阵 是 模型 获取 段落 关键 词 时 的 另 一 核心 要 素 ， 其 
元 素 代 表 不 同 节点 间 的 转移 概率 ， 概 率 可 以 利用 边 的 权重 的 
比值 表示 。TextRank 对 各 边 赋 以 相同 的 权重 ， 即 从 一 个 节点 
转移 至 与 其 相连 的 各 节点 的 概率 相同 ， 但 实际 上 这 种 转移 具 
有 其 倾向 性 。 词 图 G 的 点 对 应 文本 中 的 词 ， 不 同 的 边关 联 的 


弦 距离 与 出 现 次 数 构建 权 值 矩 阵 Ww 


(4) 


(5) 


利用 权 值 矩阵 对 初始 转移 矩 阵 加 权 ， 即 可 得 实际 的 转移 


矩阵 C : 


C=C,xW 
算法 2 基于 语义 加 权 的 转移 和 


输入 : 段落 文本 P， 词 图 结构 Gp。 
输出 : 对 应 的 转移 矩阵 C。 


E 阵 生成 算法 


(6) 


a) 以 Gp 的 点 集 大 小 |V| 构 建 两 个 |V|*|V| 的 矩阵 ， 分 别 为 初始 转移 


矩阵 Ce 与 权重 矩阵 W; 

b) 根据 Gp 的 边 集 E 初始 化 Ce; 

c) 对 P 分 句 得 句 列表 {s1, sz …sn}; 
d) FOR i=1 to n: 

e) ”对 Si 分 词 得 词 列表 {wii, Wiz,*… 
f) FOR e in 句 $i 包 含 的 边 : 


“Wim}; 


g) 获取 边关 联 节点 Vp, Va 对 应 词 wi,wj 的 向 量 表示 Xwi, Xwj; 
h) 根据 xwi, xwj 计算 对 应 边 的 权重 Sij; 
i) 在 权重 矩阵 的 对 应 元 素 wpq 与 wap 上 加 上 权重 Sij; 


j) 将 初始 权重 矩阵 Ce 与 权重 矩阵 W 按 


位 相 乘 ， 得 到 转移 矩阵 c; 


此 时 转移 矩阵 c 同时 考虑 了 词 的 语义 关联 和 词 对 出 现 的 


次 数 信息 ， 得 出 的 转移 矩阵 更 符合 


2.1.3 PR 值 与 关键 词 选 择 


得 到 词 图 G 与 转移 矩阵 C 后 即 


PR,=(1-d)+dx > x 
veln(v;) Cx 
we) 
PR, 表示 节点 vi 的 权 值 ，4 为 阻尼 系数 ; 


词语 不 同 ， 故 可 以 通过 衡量 边 所 关联 的 词语 的 关系 对 不 同 的 
边 赋 以 不 同 的 权重 。 


节点 vw 的 节点 集合 ; 


移 矩 阵 C 中 


节点 转移 至 节点 


衡量 词语 关系 最 直接 的 方式 就 是 根据 词 的 语义 信息 计算 
语义 距离 ， 词 的 语义 信息 一 般 通 过 词 向 量 体 现 ， 常 用 词 向 
包括 以 Word2Vec 为 代表 的 静态 词 向 量 和 以 Bert 为 代表 的 


地 > 


动态 词 向 量 ， 因 此 利用 词 向 量 引入 语义 信息 对 转移 矩阵 进行 
加 权 。 


计算 至 数值 稳定 ， 每 轮 欠 代 需 同 时 更 讲 


可 利用 


从 


oo) 表 示 六 指向 的 节点 集合 ， 表示 转 
的 概率 。 节 点 权 值 需 迭 代 
if 所 有 节点 的 权重 ， 攻 


PR, 


FP 文 表 达 的 实际 情况 。 


PageRank 提出 的 
PR 值 公式 计算 各 节点 权 值 ， 计 算 公 式 如 下 : 


0) 


In(v) 表示 指向 


此 计算 过 程 中 采取 和 矩阵 运算 。 用 列 
点 的 PR 值 向 量 ， 


R, ld 
m 


CxR 


向 量 R 表示 1 时 刻 所 有 节 
则 z+1 时 刻 的 计算 公式 如 下 : 


(8) 


202205.00077V1 
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C 为 转移 矩阵 ， 普 为 词 图 包含 的 节点 数 ， 和 迭代 运算 至 权 限制 ， 当 输入 长 度 超过 限制 时 ， 采 用 截断 的 方式 处 理 超出 限 
重 平稳 或 达到 一 定 次 数 后 即 可 停止 运算 ， 权重 平稳 时 有  ” 制 的 文本 。 


Rn=R 。R 为 最 终 的 PR 值 矩阵 ， 包 含 各 节点 最 终 的 PR 值 ， 以 得 到 的 圣 入 表示 作为 段落 的 主题 向 量 7 ， 使 用 K- 
按照 PR 值 对 节点 降序 排列 ， 即 可 选取 排名 前 K 的 词 作 为 输 “means 算法 对 各 段落 的 主题 向 量 聚 类 ， 形 成 基于 主题 的 段落 
入 的 关键 词 。 集合 。 由 于 篇 章 主 题 一 般 不 会 过 多 ， 因 此 模型 对 K-means 的 
2.2 ”基于 主题 的 段落 聚 类 与 关键 词 筛选 K 取 值 为 3。 

原始 TextRank 和 各 种 基于 其 的 改进 方法 均 以 篇 章 为 单 合并 同 “主题 ”下 的 段落 关键 词 列 表 ， 形 成 主题 关键 词 


位 构建 词 图 ， 破 坏 了 原本 的 文本 结构 和 主题 结构 ， 忽 略 了 篇 ”列表 kW 。 统 计 主 题 关 键 词 列表 中 各 关键 词 在 该 主题 对 应 的 


理子 主题 的 信息 。 中 文 篇 章 的 主题 通常 以 层次 结构 体现 ， 一 段落 中 的 出 现 次 数 ， 出 现 次 数 越 多 则 该 关键 词 对 该 主题 越 有 

个 段落 通常 只 阐述 一 个 主题 .主题 越 重要 对 应 文字 描述 越 多 ， ”代表 性 ， 根 据 词 频 对 段落 关键 词 列表 降序 排列 。 

即 对 应 的 段落 越 多 。 不 同 主题 对 文本 的 重要 程度 不 同 ， 主 题 对 应 的 段落 越 多 
因此 在 获取 的 段落 关键 词 基础 上 ， 模 型 提出 了 基于 主题 。 则 该 主题 越 重要 ， 在 篇 章 关键 词 列表 中 占 比 越 大 ， 帮 根据 主 

的 篇 章 关 键 词 第 选 算法 。 算 法 首先 根据 段落 ? 的 文本 生成 段 。 题 对 应 的 段落 个 数 对 主题 赋 权 ， 形 成 主题 权重 : 

落 主题 向 量 m ， 基 于 段落 主题 向 量 对 段落 进行 主题 聚 类 ; 融 cout(P eT) @) 

合同 主题 段落 的 关键 词 列表 形成 主题 关键 词 列表 ， 充 分 考虑 wsD) 

文本 结构 和 主题 信息 , 解决 原始 TextRank 和 各 种 改进 方法 忽 cown(*) 表示 对 括号 内 元 素 计数 。 根 据 权 值 ， 选取 每 个 主 

咯 文本 结构 和 主题 结构 的 问题 ， 最 终 根据 词 频 、 主 题 重 要 度 。” 题 前 xX 个 关键 词 作为 该 主题 提供 给 篇 章 的 关键 词 , 对 重复 

等 对 主题 关键 词 进行 筛选 ， 获 取 篇 章 关 键 词 Kw。 。 的 关键 词 进行 合并 ， 并 在 剩余 的 关键 词 中 根据 词 频 选取 词语 
算法 3 ”基于 主题 聚 类 的 篇 章 关键 词 第 选 算法 进行 补充 ， 形 成 篇 章 关键 词 列表 Km 。 


丛 入 : 段落 Pi 的 文本 ， 段 落 关键 词 集 KWpi; 
输出 : 篇 章 关 键 词 集 KWwo; 


3 ”实验 数据 及 分 析 


a) FOR i=1 to count(Pi): 3.1 实验 数据 与 环境 
b) ”根据 段落 Pi 的 文本 ， 生 成 段落 主题 向 量 Tpi; 实验 选取 了 两 个 原始 数据 集 ， 并 对 其 进行 筛选 构成 了 实 
c) 根据 Tei 对 段落 按 主题 进行 聚 类 ， 形 成 主题 集合 {Tl,Tz，…，Tn}; 验 所 用 数据 。 
d) 合并 同 主题 段落 的 段落 关键 词 ， 形 成 主题 关键 词 集合 ; 原始 数据 集 1 为 夏天 等 人 0 构建 的 南方 周末 新 闻 数 据 集 。 
e) FOR i=1 to m: 随机 抽取 300 篇 长 度 在 1000 字 以 上 的 文章 ， 并 对 原始 关键 
f) ”根据 主题 对 应 的 段落 个 数 ， 计 算 主题 重要 度 Ini; 词 按 基本 词 进行 拆 分 形成 nz_news 数据 集 ， 其 含有 1090 个 
g) ”对 KWri 中 的 词 ， 按 词 在 该 主题 对 应 段落 中 的 词 频 降序 排列 ; 未 拆 分 关键 词 和 1467 个 拆 分 关键 词 ,平均 每 篇 包含 2766.790 
h) ” 取 前 xl; 个 关键 词 ， 加 入 篇 章 关键 词 集 Kwo; 个 字符 ，3.633 个 未 切 分 关键 词 和 4.890 个 切 分 关键 词 。 
i) IF count(KWo)<K: 原始 数据 集 2 为 从 各 门户 网 站 和 候 取 的 新 闻 数 据 集 ， 该 数 
j) ”对 所 有 剩余 的 主题 关键 词 ， 按 篇 章 中 的 词 频 降序 排列 ; 据 集 的 关键 词 为 不 可 拆 分 的 词 。 随 机 抽取 300 篇 长 度 在 500- 
k) ” 取 前 K-count(Kwo) 个 不 在 Kwo 中 的 关键 词 加 入 KWwo; 1000 字 的 文章 形成 random _news 数据 集 ， 其 含有 4642 个 关 
首先 使 用 Sentence-Transformer 构建 各 段落 的 能 入 表示 。 键 词 ， 平 均 每 篇 包含 729.197 个 字符 和 15.473 个 关键 词 。 
Sentence-Transformer 基于 Bert 模型 , 对 输入 文本 的 长 度 存在 体 实验 数据 样 例如 图 2 所 示 。 
{"content": "4 月 19 日 ， 上 海 海事 法 院 依法 扣押 了 商船 三 井 株 式 会 社 所 有 的 、 停 泊 于 浙江 省 舟山 市 嵊泗 马 迹 山 港 的 226434 吨 “BAOSTEEL EMOTION” 货 轮 ， 引 发 日 本 政坛 关注 。\n 据 《环球 时 
报 》 报 道 ， 日 本 内 阁 官 房 长 官 营 义 伟 4 月 21 日 称 ， 中 国法 院 对 日 本 商船 三 井 株 式 会 社 涉 华 诉讼 采取 强制 执行 措施 ， 日 本 政府 对 此 表示 遗憾 。 他 称 ， 中 方 此 举 可 能 影响 两 国 关 系 ， 违 背 《 中 日 联合 声 


明 》 中 有 关 放 弃 战争 赔偿 的 精神 ， 并 影响 日 本 企业 在 中 国 的 投资 。\n 对 此 ， 中 国外 交 部 发 言 人 秦刚 21 日 在 例 行 记者 会 上 表示 ， 该 案 是 一 起 普通 商事 合同 纠纷 案 。 与 中 日 战争 赔偿 问题 无 关 。 中 国 
政府 坚持 和 维护 《中 日 联合 声明 》 各 项 原则 的 立场 没有 变化 。 中 方 将 继续 依法 保护 外 国 在 华 投资 企业 的 合法 权益 。\n 此 外 ， 秦 刚 也 在 当天 会 上 就 日 本 首相 安倍 晋三 21 日 向 靖国 神社 供奉 祭 品 一 事 
表示 中 方 已 向 日 方 提出 交涉 ， 表 明了 中 方 的 严正 立场 。\n 法 院 或 将 依法 处 理 被 扣押 的 船舶 。\n 据 《参考 消息 》 援 引 日 本 共同 社 报道 ，1936 年 ， 侵 华 战争 爆发 一 年 前 ， 日 本 海运 株式 会 社 ( 现 为 商船 
: 井 株式 会 社 ) 向 中 国 中 威 轮船 公司 租赁 了 两 笨 船 ， 合 同期 为 一 年 。 然 而 ， 这 两 租 船 从 未 归还 ， 后 来 在 海上 沉没 。\n 中 威 轮船 公司 创始 人 的 孙子 向 商船 三 井 株式 会 社 提起 了 诉讼 。\n 据 上 海 海事 法 
院 官网 19 日 晚 发 布 消息 对 该 案 进行 了 情况 通报 。\n1988 年 12 月 3 日， 原告 中 威 轮船 公司 、 陈 震 、 陈 春 等 为 与 被 告 商船 三 井 株 式 会 社 定期 租 船 合同 欠 款 及 侵权 赔偿 纠纷 一 案 向 上 海 海事 法 院 提起 诉 
讼 ， 追 索 “ 顺 丰 ” 轮 、“* 新 太平 “轮船 舶 租金 及 经 济 损失 。 上 海 海事 法 院 对 该 案 进行 了 公开 审理 ，2867 年 12 月 7 日 ， 依 法 作出 判决 ， 被 告 商船 三 井 株式 会 社 支付 及 赔偿 原告 陈 震 、 陈 春 “ 顺 丰 ” 轮 和 “新 
太平 " 轮 租金 、 营 运 损 失 、 船 舶 损失 及 草 息 2916477266. 89 日 元 〈 约 合 人 民 币 2 亿 元 ) 。\n2616 年 8 月 6 日 ， 中 华人 民 共 和 国 上 海 市 高 级 人 民法 院 作出 维持 原 判 的 终审 判决 。2616 年 12 月 23 日 ， 中 
华人 民 共 和 国 最 高 人 民法 院 裁定 驳回 被 告 的 再 审 申请 。\n 通 报 称 ， 上 述 案件 是 一 起 涉外 商事 案件 ， 该 案 判 决 生效 后 ， 原 告 方 依 据 法 律 规定 ， 向 上 海 海事 法 院 提出 强制 执行 申请 ， 要 求 被 告 履行 判 
决 确定 的 支付 和 赔偿 义务 ， 依 法 支付 迟延 履行 期 间 的 债务 利息 。\n 上 海 海事 法 院 于 2611 年 12 月 28 日 依法 向 被 执行 人 商船 三 井 株 式 会 社 发 出 《执行 通知 书 》。 期 间 ， 双 方 当 事 人 曾 多 次 进行 和 解 协 
商 未 果 。 为 此 ， 上 海 海事 法 院 依法 对 被 执行 人 所 有 的 “BAOSTEELEMOTION” 轮 予以 扣押 。A\n 通 报 称 ， 如 商船 三 井 株式 会 社 仍 拒 不 履行 义务 ， 法 院 将 依法 处 理 被 扣押 的 船舶 。\n 日 媒 称 中 日 关系 恶化 
所 致 n 前 述 《参考 消息 》 引 据 日 本 新 闻 网 4 月 26 日 报道 ， 日 本 各 大 媒体 当天 下 午 均 在 自己 的 网 站 上 报道 了 上 海 海事 法 院 扣押 日 本 商船 三 井 株式 会 社 一 稻 轮 船 ， 作 为 赔偿 原 中 国 中 威 轮船 公司 在 二 战 
期 间 遭 受 的 财产 损失 的 消息 。\n 报 道 援引 日 本 时 事 通 讯 社 发 自 北京 的 评论 说 ， 因 为 战 时 的 财产 损失 而 扣押 日 本 企业 在 中 国 国内 的 现 有 财产 ， 是 极为 军 见 的 事例 。 其 背后 是 因为 日 本 首相 安倍 晋三 
参拜 靖国 神社 等 问题 而 导致 的 中 日 关系 恶化 ， 中 国政 府 将 此 作为 打压 日 本 的 一 个 重要 手段 。\n 据 共同 社 报道 ， 中 国 最 近 发 起 了 一 连 串 针对 日 企 的 、 与 战 时 被 迫 赴 日 劳工 有 关 的 索赔 诉讼 。\n 在 这 
些 案件 中 ， 原 告 胜诉 、 被 告 败诉 的 裁决 可 能 会 导致 被 告 的 在 华 资产 进一步 被 没收 。\n 针 对 中 方 扣押 日 本 船舶 一 事 ， 日 本 政府 28 日 开始 加 紧 开 展 信息 收集 工作 ， 力 图 搞 清 中 方 意图 并 冷静 应 对 。\n 
日 本 政府 相关 人 士 指 出 :“ 此 案 属 民事 诉讼 ， 政 府 作出 过 度 反 应 或 有 不 妇 。*” 该 人 士 表示 ， 今 后 首先 将 切实 收集 相关 情报 。"，"keywords": [" 外 交 部 "，“" 日 本 "，“" 安 培 晋 三 "， "靖国 神社 "，"” 
商船 三 井 株 式 会 社 "] ，"split_keywords": [" 外 交 部 "，" 日 本 "，“" 安 培 晋三 "， "靖国 神社 "， "商船 "，" 三 井 "，" 株 式 会 社 "]} 


(a)nz_news 样 例 


{"content": “北京 时 间 5 月 15 日 ， 西 部 决赛 勇士 主场 113: 111 战 胜 马刺 ， 第 三 节 帕 楚 利 亚 刻 小 卡 的 动作 成 为 了 本 场 比赛 的 绝对 焦点 ， 第 三 节 还 剩 7 分 55 秒 时 ， 在 面 对 扎 扎 - 帕 楚 里 亚 后 撤 步 投篮 
后 伦 纳 德 左 脚 再 次 踩 到 帕 楚 里 亚 脚 上 ， 被 帕 楚 利 亚 的 那 次 犯规 ， 导 致 他 被 迫 伤 退 ， 这 也 为 勇士 大 逆转 吹 响 了 反击 的 号 角 。 但 笔者 惊讶 的 发 现 ， 帕 楚 利 亚 想 要 废 掉 小 卡 已 经 不 是 一 天 两 天 的 事情 了 ， 
他 们 的 故事 还 要 追 回 到 2816 年 2 月 6 日 ， 那 时 的 帕 楚 利 亚 还 在 小 牛 。 那 一 天 ， 小 牛 坐 镇 主场 迎 来 了 马刺 的 挑战 ， 多 点 开花 的 马刺 上 半 场 就 建立 起 36 分 的 巨大 领先 优势 ， 下 半 场 小 牛 也 没 能 扳 回 比 
分 ， 最 终 马 刺 以 116-96 轻 松 取胜 。 本 是 一 场 毫 无 悬念 的 比赛 ， 却 因为 帕 楚 利 亚 上 演 全 武 行 让 这 场 比赛 成 为 当时 的 比赛 中 ， 帕 楚 利 亚 在 一 次 争 抢 地 面 球 的 时 候 ， 挽 住 小 卡 的 腹 膊 ， 如 果 不 是 
小 卡 身手 灵活 恐怕 他 的 生涯 那 时 就 已 经 结束 了 。 事 情 不 止 这 么 简单 ， 随 后 帕 楚 利 亚 在 一 次 上 篮 中 ， 小 卡 上 前 防 利 亚 对 准 小 卡 的 脖子 就 是 一 时 直接 将 小 卡 击 飞 。 那 场 比赛 不 止 面 对 小 卡 ， 再 

次 倒 地 时 ， 丹 尼 - 格 林 拿 到 球 后 ， 倒 地 的 帕 楚 利 亚 却 用 脚 伸 向 皇 阿 玛 试图 夹 住 他 的 脖子 。 看 来 帕 楚 利 亚 似乎 从 一 开始 就 那么 的 不 喜欢 马刺 ， 即 便 是 老实 的 小 卡 也 难 逃 厄运 ， 而 且 一 直 被 帕 楚 利 亚 
人 本 人 恐怕 帕 楚 利 亚 真 的 不 能 再 说 是 不 小 心 的 了 吧 。"，"keywords": [" 决 赛 "，“ 帕 楚 里 亚 "，“ 伦 纳 德 "，“" 丹 尼 - 格 林 "，“ 反 击 "，“ 比 赛 "， 
" 扎 扎 "，" 帕 楚 利 亚 "， "马刺 "，“ 勇 十 


(bjrandom_ news 样 例 
图 2 实验 数据 样 例 


Fig.2 Experimental data samples 


具体 实验 环境 如 表 1 所 示 。 


pKaNKe] RIKa NKel £2xPxR (10) 
3.2 方案 与 指标 [Ri| [Rl P+R 
实验 采取 准确 率 P、 召 回 率 R 及 F 值 作为 抽取 方法 效 实验 采用 的 抽取 方法 包括 : 
果 的 评判 标准 。 以 K 表示 测试 数据 集 提供 的 正确 关键 词 集合 ， M1 原始 TextRank; 


Ks 表示 抽取 的 关键 词 集合 ， 各 评价 指标 的 计算 公式 如 下 : M2: 结合 句法 分 析 与 词 共 现 ， 以 篇 章 为 单位 构建 词 图 


录用 定稿 永 
转移 矩阵 构建 与 Mi 相同; 

M3: 词 图 构建 与 M 相同 ， 以 词 对 出 现 次 数 进 行 加 权 构 
建 转移 矩阵 ; 

M4: 词 图 构建 与 M2 相同, 以 Word2Vec 词 向 量 衡量 语义 


距离 ， 综 合 语义 距离 与 词 对 出 现 次 数 构建 转移 矩阵 ; 
M5: 结合 句法 分 析 与 词 共 现 ， 以 段落 为 单位 构建 词 

转移 矩阵 构建 与 Ms 相同 ， 根 据 词 频 从 所 有 段落 关键 词 

取 前 K 个 词 作为 篇 章 关键 词 
Me: 词 图 构建 与 转移 矩阵 构建 与 Ms 相同 ， 采 用 基于 主 

题 聂 类 的 篇 章 关键 词 利 选 算法 第 选 关键 词 ( 即 S-TAKB)。 

表 1 实验 环境 说 明 


器 


于 


昊 ， 等 : 基于 句法 分 析 及 主题 分 布 的 关键 词 抽取 模型 


Tab. 1 Experimental environment description 

项 版 本 或 型 号 

CPU Intel(R) Xeon(R) CPU ES5-2680 v2 @ 2.80GHz 

内 存 8G 

系统 CentOS Linux release 7.5.1804(Core) 
Python 版 本 V3.7 

IDE Pycharm2020.2.3 

LTP 库 ltp_data_v3.4.0 


3.3 结果 与 分 析 
实验 一 “不 同方 法 在 不 同 关键 词 个 数 下 抽取 情况 优 劣 
为 验证 各 方法 抽取 关键 词 效果 的 优 劣 ， 以 及 抽取 不 同 数 
量 的 关键 词 对 结果 的 影响 ， 分 别 在 nz_news 与 random news 
数据 集 上 采用 不 同方 法 及 不 同 关 键 词 抽取 数量 进行 实验 。 
实验 以 3 为 共 现 窗口 长 度 ,分别 使 用 方法 Mi-Ms 抽 取 3、 
5、7 个 关键 词 并 与 标准 答案 ( 拆 分 关键 词 ) 进 行 对 比 ， 实 验 结 
果 如 表 2、3 所 示 。 
表 2 各 算法 在 nz_ news 上 的 结果 对 比 
Tab.2 Comparison of the results of Approaches on nz news 
TopK=5 TopK=7 TopK=10 
R Fl1 P R Fl P R Fl1 
M1 0.291 0.298 0.295 0.243 0.348 0.286 0.200 0.408 0.268 
M2 0.320 0.327 0.324 0.267 0.383 0.315 0.222 0.454 0.298 
M3 0.334 0.342 0.338 0.278 0.398 0.327 0.226 0.461 0.303 
M4 0.333 0.340 0.336 0.284 0.407 0.334 0.230 0.471 0.309 
M5 0.345 0.353 0.349 0.289 0.414 0.340 0.235 0.480 0.315 


| Dl 


Approach 


表 3 各 算法 在 random news 上 的 结果 对 比 
Tab.3 Comparison ofthe results of Approaches on random news 
TopK=5 TopK=7 TopK=10 
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图 3 不 同窗 口 长 度 下 的 关键 词 抽取 结果 


Fig.3 Keyword extraction results with different window lengths 
方法 Mi 即 原始 TextRank 在 random news 数据 集 上 的 抽 
取 效 果 随 着 窗口 长 度 增 加 逐渐 降低 ， 符 合 其 原 论 文 使 用 长 度 
为 2 的 共 现 窗口 的 结论 。 方 法 Ms 则 在 共 现 窗口 长 度 为 4 时 
取得 最 好 的 效果 ， 随 后 随 着 窗口 长 度 增 加 效果 逐渐 下 降 。 根 
据 结果 ， 推 论 通 过 依存 关系 获取 到 的 信息 一 定 程度 上 缓解 ] 
共 现 窗口 增加 时 带 来 的 影响 。 
实验 三 ”验证 层次 模型 的 有 效 性 
方法 M6 即 为 模型 S$-TAKE, 为 验证 其 有 效 性 , 将 其 与 方 
法 Ms 进行 对 比 。 
由 于 random_news 数据 集 没 有 段落 信息 ,因此 在 nz_news 
数据 集 上 进行 实验 。 定义 共 现 窗口 长 度 为 3, 分 别 抽取 5、7、 
10 个 关键 词 ， 对 比 两 种 算法 对 于 “未 拆 分 关键 词 ” 和 “ 拆 分 
关键 词 ” 的 抽取 效果 ， 结 果 如 表 4、 表 5 所 示 。 
表 4 “ 拆 分 关键 词 ”的 抽取 结果 对 比 
Tab.4 Comparison of results for "split keywords" 
TopK=5 TopK=7 TopK=10 
R Fl Be R Fl 下 及 Fl 


Approach 


Approach 
及 Fl P R Fl P R Fl 


M1 0.387 0.125 0.189 0.332 0.150 0.207 0.282 0.182 0.221 
M2 0.43 0.139 0.210 0.373 0.169 0.232 0.320 0.207 0.251 
M3 0.413 0.133 0.201 0.356 0.161 0.222 0.312 0.202 0.245 
M4 0.437 0.141 0.213 0.377 0.170 0.235 0.344 0.223 0.270 
M5 0.447 0.145 0.218 0.399 0.180 0.248 0.368 0.238 0.289 


M5 0.345 0.353 0.349 0.289 0.414 0.340 0.235 0.480 0.315 
M6 0.328 0.335 0.332 0.304 0.435 0.358 0.257 0.526 0.346 


表 5 “未 拆 分 关键 词 ”的 抽取 结果 对 比 
Tab.5 Comparison ofresults for "none-split keywords" 
TopK=5 TopK=7 TopK=10 
R Fl P 及 Fl 了 及 F1 


Approach 


上 图 结果 可 知 ， 在 五 种 方法 中 ， 方 法 Ms 具有 最 好 的 
效果 。 随 着 抽取 的 关键 词 数 量 的 增加 ， 各 方法 在 nz_news 数 
据 集 上 的 R 值 逐渐 增加 、 值 逐渐 降低 ， 而 在 random_news 
数据 集 上 R 值 和 值 则 同步 增加 。 
这 是 因为 nz_news 数据 集 的 篇 平均 关键 词 数量 较 少 ， 攻 
此 即使 R 值 增加 五 值 也 可 能 降低 。 而 在 random_news 数据 身 
中 ， 篇 平均 关键 词 数 量 较 多 ， 当 抽取 10 个 关键 词 时 还 未 达到 其 
篇 均 的 15 个 关键 词 ， 因 此 其 R 值 与 五 值 仍 能 保持 同步 增加 。 
实验 二 ”不同 滑动 窗口 长 度 对 关键 词 抽取 结果 的 影响 
共 现 窗口 长 度 影 决 定 共 现 对 数目 ， 对 词 图 构建 有 较 大 影 
响 。 为 验证 滑动 窗口 长 度 对 结果 的 影响 , 使 用 方法 Mi、Ms， 
在 random_news 数据 集 上 依次 以 2-6 为 窗口 长 度 抽 取 10 个 
关键 词 ， 结 果 如 图 3 所 示 。 


uy 


M5 0.180 0.247 0.208 0.150 0.288 0.197 0.120 0.330 0.176 
M6 0.184 0.253 0.213 0.157 0.304 0.208 0.124 0.341 0.182 


关键 词 个 数 为 5 时 ,Me 即 S-TAKE 模型 在 “未 拆 分 关键 
词 ” 上 的 表现 效果 优 于 Ms， 但 在 “ 拆 分 关键 词 ” 上 较 低 ， 关 键 
词 个 数 为 7、10 时 ，S-TAKE 模型 的 效果 则 全 面 优 于 方法 Ms。 

以 图 2(a) 中 截取 的 语 料 为 例 ， 以 “ 切 分 关键 词 ”为 衡量 
标准 , 使 用 原始 TextRank 抽取 7 个 关键 词 时 ， 其 关键 词 列表 
为 [日 本 , 被 告 , 株式 会 社 , 法 院 , 中 国 , 三 井 , 商船 , 报道 ， 
船舶 ， 依 法 ]; 使 用 本 文 提出 的 S-TAKE 方法 抽取 得 到 的 关键 
词 列 表 为 [日 本 ， 安 倍 晋三 ， 株 式 会 社 ， 中 国 ， 商 船 ， 三 井 ， 
靖国 神社 ， 依 法 ， 船 舶 ， 报 道 ]。 在 排名 前 3 的 关键 词 中 ， 原 
始 TextRank 命中 了 2 个 ， 本 文 算法 命中 了 3 个 ; 在 排名 前 7 
的 关键 词 中 ， 原 始 TextRank 命中 了 4 个 ， 本 文 算 法 命中 了 5 
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个 ;在 排名 前 10 的 关键 词 中 ， 原 始 TextRank 命 仍旧 只 命中 
4 个 ， 本 文 算法 命中 了 6 个 。 以 “未 切 分 关键 词 为 衡量 标准 
时 ”在 获取 10 个 关键 词 的 情况 下 , 原始 TextRank 仅 命 中 了 
2 个 ， 本 文 方法 命中 了 3 个 ， 对 于 “复合 型 ”的 关键 词 ， 两 
个 方法 均 没 能 有 效 识 别 。 

考察 语 料 集 给 定 的 关键 词 ， 发 现 可 拆 分 的 关键 词 一 般 为 
某 主题 的 细 化 表达 , 一 般 与 其 主题 同时 出 现在 关键 词 列表 中 ， 
如 “养老 金 -养老 ””“ 医 疗 保险 -保险 ”等 ， 且 主题 词 的 权重 更 
大 不 考虑 主题 且 抽 取 关 键 词 较 少 时 ， 容 易 在 同一 主题 下 抽取 
多 个 词语 , 即 更 容易 抽取 到 可 拆 分 的 关键 词 , 因此 方法 Ms 在 
取 词 数 较 少 时 在 “ 拆 分 关键 词 ” 上 效果 优 于 S-TAKE 模型 。 
但 S-TAKE 模型 考虑 了 主题 要 素 ， 抽 取 到 了 篇 章 中 其 他 主题 的 
主题 词 ， 故 其 在 “未 拆 分 关键 词 ” 上 的 表现 效果 优 于 方法 Ms。 


4 ”结束 语 


本 文通 过 在 TextRank 中 引入 句法 信息 与 语义 信息 , 提升 
了 算法 抽取 关键 词 的 能 力 ， 同 时 基于 中 文 行文 特点 ， 提 出 了 
以 段落 为 基本 单位 构建 词 图 、 根 据 段落 主题 聚 类 获取 篇 章 关 
键 词 的 思想 , 解决 了 TextRank 忽略 文本 结构 及 主题 信息 的 问 
题 。 实 验 结果 表明 ，S-TAKE 模型 的 效果 较 原始 TextRank 有 
显著 提高 ， 证 明了 语法 信息 与 语义 信息 在 关键 词 获取 中 的 重 
要 作用 ， 证 明了 主题 信息 对 关键 词 获取 的 意义 ， 验 证 了 基于 
段落 主题 进行 聚 类 的 思想 的 正确 性 。 
但 研究 同时 提出 了 新 的 问题 ， 如 何 更 好 的 对 段落 主题 进 
行 建 模 减 少 误差 ， 如 何 对 不 同 的 依存 关系 赋 以 不 同 的 权重 ， 
如 何 对 同一 条 依存 边 的 正 反 向 进行 赋 权 等 。 后 续 拟 在 现 有 基 
础 上 继续 研究 。 
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